46 research outputs found
A Bioinformatics Approach for Detecting Repetitive Nested Motifs using Pattern Matching
The identification of nested motifs in genomic sequences is a complex computational problem. The detection of these patterns is important to allow discovery of transposable element (TE) insertions, incomplete reverse transcripts, deletions, and/or mutations. Here, we designed a de novo strategy for detecting patterns that represent nested motifs based on exhaustive searches for pairs of motifs and combinatorial pattern analysis. These patterns can be grouped into three categories: motifs within other motifs, motifs flanked by other motifs, and motifs of large size. Our methodology, applied to genomic sequences from the plant species Aegilops tauschii and Oryza sativa, revealed that it is possible to find putative nested TEs by detecting these three types of patterns. The results were validated though BLAST alignments, which revealed the efficacy and usefulness of the new method, which we call Mamushka.Fil: Romero, José Rodolfo. Consejo Nacional de Investigaciones CientÃficas y Técnicas. Centro CientÃfico Tecnológico Conicet - BahÃa Blanca. Centro de Recursos Naturales Renovables de la Zona Semiárida. Universidad Nacional del Sur. Centro de Recursos Naturales Renovables de la Zona Semiárida; ArgentinaFil: Carballido, Jessica Andrea. Consejo Nacional de Investigaciones CientÃficas y Técnicas. Centro CientÃfico Tecnológico Conicet - BahÃa Blanca. Instituto de Cs. E IngenierÃa de la Computacion; ArgentinaFil: Garbus, Ingrid. Consejo Nacional de Investigaciones CientÃficas y Técnicas. Centro CientÃfico Tecnológico Conicet - BahÃa Blanca. Centro de Recursos Naturales Renovables de la Zona Semiárida. Universidad Nacional del Sur. Centro de Recursos Naturales Renovables de la Zona Semiárida; ArgentinaFil: Echenique, Carmen Viviana. Consejo Nacional de Investigaciones CientÃficas y Técnicas. Centro CientÃfico Tecnológico Conicet - BahÃa Blanca. Centro de Recursos Naturales Renovables de la Zona Semiárida. Universidad Nacional del Sur. Centro de Recursos Naturales Renovables de la Zona Semiárida; ArgentinaFil: Ponzoni, Ignacio. Consejo Nacional de Investigaciones CientÃficas y Técnicas. Centro CientÃfico Tecnológico Conicet - BahÃa Blanca. Instituto de Cs. E IngenierÃa de la Computacion; Argentin
Biclustering in data mining using a memetic multi-objective evolutionary algorithm
In this paper, a new memetic strategy that integrates a multi-objective evolutionary algorithm (the SPEA2) with a local search technique for data mining is presented. The algorithm explores a Term Frequency-Inverse Document Frequency (TF-IDF) data matrix in order to find biclusters that fulfill several objectives. The case of study was a dataset corresponding to the Reuters-21578 corpus. Our algorithm performed satisfactorily, finding biclusters that have large size and coherent values, yielding to undeniably promising outcomes. Nonetheless, more experiments with data from other corpus are necessary, thus leading to more concluding resultsWorkshop de Agentes y Sistemas Inteligentes (WASI)Red de Universidades con Carreras en Informática (RedUNCI
An Evolutionary Algorithm for Automatic Recommendation of Clustering Methods and its Parameters
One of the main problems being faced at the time of performing data clustering consists in the deteremination of the best clustering method together with defining the ideal amount (k) of groups in which these data should be separated. In this paper, a preliminary approximation of a clustering recommender method is presented which, starting from a set of standardized data, suggests the best clustering strategy and also proposes an advisable k value. For this aim, the algorithm considers four indices for evaluating the final structure of clusters: Dunn, Silhouette, Widest Gap and Entropy. The prototype is implemented as a Genetic Algorithm in which individuals are possible configurations of the methods and their parameters. In this first prototype, the algorithm suggests between four partitioning methods namely K-means, PAM, CLARA and, Fanny. Also, the best set of parameters to execute the suggested method is obtained. The prototype was developed in an R environment, and its findings could be corroborated as consistent when compared with a combination of results provided by other methods with similar objectives. The idea of this prototype is to serve as the initial basis for a more complex framework that also incorporates the reduction of matrices with vast numbers of rows.Fil: Carballido, Jessica Andrea. Consejo Nacional de Investigaciones CientÃficas y Técnicas. Centro CientÃfico Tecnológico Conicet - BahÃa Blanca. Instituto de Ciencias e IngenierÃa de la Computación. Universidad Nacional del Sur. Departamento de Ciencias e IngenierÃa de la Computación. Instituto de Ciencias e IngenierÃa de la Computación; ArgentinaFil: Latini, Macarena AnahÃ. Universidad Nacional del Sur; ArgentinaFil: Ponzoni, Ignacio. Universidad Nacional del Sur; Argentina. Consejo Nacional de Investigaciones CientÃficas y Técnicas; ArgentinaFil: Cecchini, RocÃo Luján. Consejo Nacional de Investigaciones CientÃficas y Técnicas. Centro CientÃfico Tecnológico Conicet - BahÃa Blanca. Instituto de Ciencias e IngenierÃa de la Computación. Universidad Nacional del Sur. Departamento de Ciencias e IngenierÃa de la Computación. Instituto de Ciencias e IngenierÃa de la Computación; Argentin
Un algoritmo genético basado en números difusos triangulares
En este trabajo se presenta un algoritmo genético basado en números triangulares difusos el cual tiene por objetivo superar los problemas de diversidad poblacional observados en los algoritmos genéticos clásicos. En la técnica propuesta se representa cada individuo a través de un conjunto difuso, y se redefinen las operaciones de cruzamiento y mutación para adecuarse a este nuevo patrón genético. Con el fin de establecer el alcance de nuestra propuesta se implementó el algoritmo genético tradicional y el algoritmo genético basado en conjuntos difusos para comparar sus desempeños. Los resultados obtenidos muestran que la variante difusa logra mejor diversidad poblacional sin perder eficacia en la búsqueda de la solución óptima.Eje: Sistemas inteligentesRed de Universidades con Carreras en Informática (RedUNCI
Un algoritmo genético basado en números difusos triangulares
En este trabajo se presenta un algoritmo genético basado en números triangulares difusos el cual tiene por objetivo superar los problemas de diversidad poblacional observados en los algoritmos genéticos clásicos. En la técnica propuesta se representa cada individuo a través de un conjunto difuso, y se redefinen las operaciones de cruzamiento y mutación para adecuarse a este nuevo patrón genético. Con el fin de establecer el alcance de nuestra propuesta se implementó el algoritmo genético tradicional y el algoritmo genético basado en conjuntos difusos para comparar sus desempeños. Los resultados obtenidos muestran que la variante difusa logra mejor diversidad poblacional sin perder eficacia en la búsqueda de la solución óptima.Eje: Sistemas inteligentesRed de Universidades con Carreras en Informática (RedUNCI
Memetic micro-genetic algorithms for cancer data classification
Fast and precise medical diagnosis of human cancer is crucial for treatment decisions. Gene selection consists of identifying a set of informative genes from microarray data to allow high predictive accuracy in human cancer classification. This task is a combinatorial search problem, and optimisation methods can be applied for its resolution. In this paper, two memetic micro-genetic algorithms (MμV1 and MμV2) with different hybridisation approaches are proposed for feature selection of cancer microarray data. Seven gene expression datasets are used for experimentation. The comparison with stochastic state-of-the-art optimisation techniques concludes that problem-dependent local search methods combined with micro-genetic algorithms improve feature selection of cancer microarray data.Fil: Rojas, Matias Gabriel. Universidad Nacional de Lujan. Centro de Investigacion Docencia y Extension En Tecnologias de la Informacion y Las Comunicaciones.; Argentina. Consejo Nacional de Investigaciones CientÃficas y Técnicas. Centro CientÃfico Tecnológico Conicet - Mendoza; ArgentinaFil: Olivera, Ana Carolina. Universidad Nacional de Cuyo. Facultad de IngenierÃa; Argentina. Universidad Nacional de Lujan. Centro de Investigacion Docencia y Extension En Tecnologias de la Informacion y Las Comunicaciones.; Argentina. Consejo Nacional de Investigaciones CientÃficas y Técnicas. Centro CientÃfico Tecnológico Conicet - Mendoza; ArgentinaFil: Carballido, Jessica Andrea. Consejo Nacional de Investigaciones CientÃficas y Técnicas. Centro CientÃfico Tecnológico Conicet - BahÃa Blanca. Instituto de Ciencias e IngenierÃa de la Computación; ArgentinaFil: Vidal, Pablo Javier. Universidad Nacional de Cuyo. Facultad de IngenierÃa; Argentina. Universidad Nacional del Sur. Departamento de Ciencias e IngenierÃa de la Computación; Argentina. Consejo Nacional de Investigaciones CientÃficas y Técnicas. Centro CientÃfico Tecnológico Conicet - Mendoza; Argentin
pdAGMO para configuración inicial de sensores en procesos industriales
En este trabajo se presenta una implementación paralelo-distribuida de un algoritmo genético multiobjetivo (pdAGMO), desarrollado para efectuar la selección de la configuración inicial de sensores en el diseño de instrumentación de plantas de procesos. El pdAGMO fue diseñado empleando el modelo evolutivo de islas y el paradigma masterworker, mientras que para su implementación se empleó la librerÃa de pasaje de mensajes PVM (Parallel Virtual Machine). El desempeño del pdAGMO fue evaluado a través de su aplicación a un caso de estudio industrial correspondiente a una planta de producción de amonÃaco. Los resultados alcanzados son muy satisfactorios en términos de speed-up, eficiencia y calidad del diseño de instrumentación.Fil: Asteasuain, Fernando. Universidad Nacional del Sur. Departamento de Ciencias e IngenierÃa de la Computación. Instituto de Ciencias e IngenierÃa de la Computación; Argentina. Consejo Nacional de Investigaciones CientÃficas y Técnicas. Centro CientÃfico Tecnológico Conicet - BahÃa Blanca; ArgentinaFil: Carballido, Jessica Andrea. Consejo Nacional de Investigaciones CientÃficas y Técnicas. Centro CientÃfico Tecnológico Conicet - BahÃa Blanca. Planta Piloto de IngenierÃa QuÃmica. Universidad Nacional del Sur. Planta Piloto de IngenierÃa QuÃmica; Argentina. Universidad Nacional del Sur. Departamento de Ciencias e IngenierÃa de la Computación. Instituto de Ciencias e IngenierÃa de la Computación; ArgentinaFil: Vazquez, Gustavo Esteban. Consejo Nacional de Investigaciones CientÃficas y Técnicas. Centro CientÃfico Tecnológico Conicet - BahÃa Blanca. Planta Piloto de IngenierÃa QuÃmica. Universidad Nacional del Sur. Planta Piloto de IngenierÃa QuÃmica; Argentina. Universidad Nacional del Sur. Departamento de Ciencias e IngenierÃa de la Computación. Instituto de Ciencias e IngenierÃa de la Computación; ArgentinaFil: Ponzoni, Ignacio. Consejo Nacional de Investigaciones CientÃficas y Técnicas. Centro CientÃfico Tecnológico Conicet - BahÃa Blanca. Planta Piloto de IngenierÃa QuÃmica. Universidad Nacional del Sur. Planta Piloto de IngenierÃa QuÃmica; Argentina. Universidad Nacional del Sur. Departamento de Ciencias e IngenierÃa de la Computación. Instituto de Ciencias e IngenierÃa de la Computación; ArgentinaFil: Brignole, Nélida Beatriz. Consejo Nacional de Investigaciones CientÃficas y Técnicas. Centro CientÃfico Tecnológico Conicet - BahÃa Blanca. Planta Piloto de IngenierÃa QuÃmica. Universidad Nacional del Sur. Planta Piloto de IngenierÃa QuÃmica; Argentina. Universidad Nacional del Sur. Departamento de Ciencias e IngenierÃa de la Computación. Instituto de Ciencias e IngenierÃa de la Computación; Argentin
MetaCLAS: A Prototype Evolutionary Proposal to Automatically Suggest Clustering Methods and their Parameters
Uno de los principales problemas al que nos enfrentamos al momento de realizar agrupamiento de datos consiste en elegir cuál es el mejor método de clustering para clasificarlos, y cuál es la cantidad ideal (k) de grupos en los que se deberÃan separar esos datos. En este trabajo presentamos una primera aproximación de un método que, a partir de un conjunto de datos estandarizados, sugiere el método de clustering y el valor de k que mejor los agrupa. Para esto considera cuatro Ãndices de evaluación de la estructura final de clusters: Dunn, Silueta, EntropÃa y Widestgap. El algoritmo está implementado como un algoritmo genético en el cual los individuos son posibles configuraciones de métodos de clustering y sus parámetros. En este primer prototipo, el algoritmo sugiere entre los métodos de partición K-means, PAM, CLARA y Fanny.
Asimismo, además de sugerir el método que presentó mejor desempeño, también se obtiene como resultado el valor de los parámetros para ejecutarlo.
El prototipo fue desarrollado en un entorno de R y se pudo corroborar que sus resultados son consistentes con una combinación de resultados provistos por otros métodos con objetivos similares. La idea de este trabajo es que sirva de base inicial para un desarrollo que incorpore opciones para reducción de la matriz de datos, evaluación de más métodos de agrupamiento y optimización de los operadores genéticos del algoritmo.XIV Workshop Bases de Datos y MinerÃa de Datos (WBDDM).Red de Universidades con Carreras en Informática (RedUNCI
Computación evolutiva y aprendizaje automático para la inferencia, modelado y simulación de redes regulatorias de genes
Los alcances principales de esta lÃnea de I/D consisten en diseñar técnicas computacionales que asistan a expertos en bioinformática en la obtención de nuevos conocimientos sobre el funcionamiento de los mecanismos de regulación existentes a nivel molecular en los organismos biológicos. Más especÃficamente, se busca desarrollar sistemas de software que asistan en la reconstrucción (o descubrimiento) de la estructura relacional presente en las redes regulatorias de genes.Eje: Nuevas TecnologÃas en desarrollo de Sistemas de SoftwareRed de Universidades con Carreras en Informática (RedUNCI
Diseño de algoritmos evolutivos hÃbridos optimizados para biclustering : LÃnea de investigación
El objetivo general de esta lÃnea de investigación consiste en diseñar nuevas técnicas computacionales que ayuden a descubrir potenciales conexiones entre datos presentados en forma de matriz pertenecientes a distintos campos de aplicación. Más especÃficamente, se planea desarrollar una estrategia evolutiva hibridada con búsqueda local especialmente diseñada para bilcustering de datos. En tal sentido, se busca desarrollar una herramienta que pueda asistir a investigadores de distintas disciplinas en la inferencia de relaciones entre datos procedentes de grandes volúmenes de información.Eje: Agentes y Sistemas Inteligentes.Red de Universidades con Carreras en Informática (RedUNCI